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BESCHRE I BUNG 

Spracherkennungseinrichtung mit verbesserter Ausschliefiung von 
Wortern und Tonen, die nicht im Vokabular enthalten sind 

Grundlagen der Erfindung 

Die Erfindung betrifft die Computer spracherkennung, 
irisbesondere die Erkenhung gesprochener Computerbef ehle . Wenn 
ein gesprochener Befehl erkannt wird, ftihrt der Computer eine 
oder mehrere dem Befehl zugeordnete Funktionen aus. 

Im. Allgemeinen besteht eine Spracherkennungsvorrichtung aus 
einem Akustikprozessor und einem gespeicherten Satz 
akustischer Modelle. Der Akustikprozessor misst Tonmerkmale 
einer Aufierung. Jedes akustische Modell stellt die akustischen 
Merkmale einer Aufierung eines oder mehrerer dem Modell 
zugeordneter Worte dar. Die Tonmerkmale der Aufierung werden 
mit jedem akustischen Modell yerglichen, urn einen 
Vergleichswert zu erzeugen. Der Vergleichswert far eine . 
Aufierung und ein akustisches Modell ist eine Schatzung der 
Genauigkeit der Tonmerkmale der Aufierung im Vergleich zum 

akustischen Modell. 

. » 

Das Wort bzw. die Worte, die dem akustischen Modell mit dem 
besten Vergleichswert zugeordnet. werden, konnen als 
Erkennungsergebnis ausgewahlt werden. Alternativ kann der 
akustische Vergleichswert mit anderen Vergleichswerten 
kombiniert werden, beispielsweise mit zusatzlichen akustischen 
Vergleichswerten und Sprachmodellvergleichswerten. Das Wort 
bzw. die Worte, die dem (den) akustischen Modell (en) mit dem 
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best en kombinierten Vergleichswert zugeordnet werden, kdnnen 
als Erkennungsergebnis ausgewahlt werden. 

Bei Befehls- und Steueranwendungen erkennt die 
Spracherkennungsvo.rrichtung vorzugsweise einen geaufierten 
Befehl, und das Computersystem fiihrt den Befehl anschliefiend 
sofort aus, urn eine dem erkannten Befehl zugeordnete Funktion 
auszufilhren. Zu diesem Zweck kann der Befehl, der dem 
akustischen Modell mit dem besten Vergleichswert zugeordnet 
wird, als Erkennungsergebnis ausgewahlt werden. 

Ein schwerwiegendes Problem bei solchen Systemen besteht 
jedoch darin, dass unbeabsichtigte Tone, beispielsweise . 
Husten, Seufzer Oder gesprochene Worte, die nicht zur 
Erkennung vorgesehen sind, f alschlicherweise als gtiltige 
Befehle erkannt werden. Das Computersystem fiihrt die falsch 
erkannten Befehle sodann sofort aus, um die zugeordneten 
Funktionen mit unbeabsichtigten Folgen auszufUhren. 

US-A-4 239 936 beschreibt ein Spracherkennungssystem, in dem 
die Intensitat von Umgebungsgerausch parallel zu den 
eingegebenen Sprachsignalen gemessen wird, wobei jedes dem 
eingegebenen Sprachsignal zugeordnetes Erkennungsergebnis 
zurtickgewiesen wird, wenn die Intensitat des Gerausches einen 
festgelegten Standardwert uberschreitet . 

Zusammenfassung der Erfindunq 

Eine Aufgabe. der Erfindung ist die Bereitstellung einer 
Vorrichtung und eines Verf ahrens zur Spracherkennung, das eine 
hohe Wahrscheinlichkeit aufweist, akustische Obereinstimmungen 
mit unbeabsichtigten Tdnen oder gesprochenen Worten, die nicht 
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fur die Spracherkennungseinrichtung vorgesehen sind, 
auszuschlieiien . 

Eine andere Aufgabe der Erfindung ist die Bereitstellung einer 
Vorrichtung und eines Verfahrens zur Spracherkennung, das das 
akustische Modell kennzeichnet, das am besten mit einem Ton 
Obereinstimmt und das eine hohe Wahrscheinlichkeit hat, das am 
besten iibereinstimmende akustische Modell auszuschlieflen, 
falls der Ton unbeabsichtigt oder nicht fur die 
Spracherkennungseinrichtung vorgesehen ist, das jedoch eine 
hohe Wahrscheinlichkeit hat, das am besten iibereinstimmende 
akustische Modell anzunehmen, falls der Ton ein oder mehrere 
zur Erkennung vorgesehene Worte darstellt. 

Eine Spracherkennungsvorrichtung gemafl der Erfindung umfasst 
einen Akustikprozessor zum Messen des Wertes von mindestens 
einem Merkmal von jeder aus einer Folge von mindestens zwei 
Tonen. Der Akustikprozessor misst den Wert des Merkmal s von 
jedem Ton wahrend jeder aus einer Reihe auf einanderf olgender 
Zeitintervalle, urn eine Folge von Merkmalsignalen zu erzeugen, 
die die Merkmalwerte des Tons darstellen. Aufierdem werden 
Mittel zur Speicherung eines Satzes akustischer Merkmale 
bereitgestellt. Jedes akustische Bef ehlsmodell stellt eine 
oder mehrere Folgen akustischer Merkmalwerte dar, die eine 
Aufierung eines dem akustischen Bef ehlsmodell zugeordneten 
Befehls darstellen. 

Ein Vergleichswertprozessor erzeugt einen Vergleichswert fur 
jeden Ton und jedes von einem oder mehreren Bef ehlsmodellen 
aus dem Satz akustischer Bef ehlsmodelle . Jeder Vergleichswert 
umfasst eine Schatzung der Genauigkeit einer Obereinstimmung 
zwischen dem akustischen Bef ehlsmodell und einer Reihe dem Ton 
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entsprechender Merkmalsignale . Es werden Mittel zum Ausgeben 
eines Erkennungssignals bereitgestellt, das dem Bef ehlsmodell 
mit dem besten Vergleichswert ftir einen aktuellen Ton 
entspricht, falls der beste Vergleichswert fur den aktuellen 
Ton besser als ein Erkennungsschwellenwert fur den aktuellen 
Ton ist. Die Erkennungsschwelle ftir den aktuellen Ton umfasst 
(a) einen ersten Vertrauenswert, falls der beste 
Vergleichswert ftir einen frtlheren Ton besser als eine 
Erkennungsschwelle fur diesen f rtiheren Ton war, oder (b) einen 
zweiten Vertrauenswert, der besser als der erste 
Vertrauenswert ist, falls der beste Vergleichswert ftir einen 
frtlheren Ton schlechter als die Erkennungsschwelle ftir diesen 
frtlheren Ton war. 

r 

Vorzugsweise tritt der frtihere Ton unmittelbar voir dem 
aktuellen Ton auf. 

Eine Spracherkennungsvorrichtung gemafi der Erf indung kann 
aulierdem Mittel zur Speicherung von mindestens einem 
akustischen Schweigemodell umfassen, das eine oder mehrere 
Folgen akustischer Merkmalwerte darstellt, die das Fehlen 
einer gesprochenen Aufierung darstellen. Der 

Vergleichswertprozessor erzeugt aulierdem einen Vergleichswert 
fiir jeden Ton und das akustische Schweigemodell. Jeder 
Schweigevergleichswert umfasst eine Schatzung der Genauigkeit 
einer Obereinstimmung zwischen dem akustischen Schweigemodell 
und einer Reihe dem Ton entsprechender Merkmalsignale. 

In diesem Aspekt der Erfindung umfasst die Erkennungsschwelle 
ftir den aktuellen Ton den ersten Vertrauenswert (al), falls 
der Vergleichswert ftir den friiheren Ton und das akustische 
Schweigemodell besser als eine Schweigevergleichsschwelle ist, 



und falls der fruhere Ton eine Dauer hat, die eine 
Schweigedauerschwelle uberschreitet , oder (a2) falls der 
Vergleichswert fur den fruheren Ton und das akustische 
Schweigemodell besser als die schweigevergleichsschwelle ist 
und falls der fruhere Ton eine Dauer hat, die geringer als die 
Schweigedauerschwelle ist, und falls der beste Vergleichswert 
fur den nachsten fruheren Ton und ein akustisches 
Befehlsmodell besser als eine Erkennungsschwelle filr diesen 
nachsten fruheren Ton war, oder (a3) falls der Vergleichswert 
far den fruheren Ton und das akustische Schweigemodell 
schlechter als die Schweigevergleichsschwelle ist, und falls 
der beste Vergleichswert fur den fruheren Ton und ein . 
akustisches Befehlsmodell besser als eine Erkennungsschwelle 
fur diesen fruheren Ton war, 

* 

Die Erkennungsschwelle fur den aktuellen Ton umfasst den 
zweiten Vertrauenswert, der besser als der erste 
Vertrauenswert ist, (bl) falls der Vergleichswert fur den 
fruheren Ton und das akustische Schweigemodell besser als die 
Schweigevergleichsschwelle ist, und falls der fruhere Ton eine 
Dauer hat, die geringer als die Schweigedauerschwelle ist, und 
falls der beste Vergleichswert filr den nachsten fruheren Ton 
und- ein akustisches Befehlsmodell schlechter als die 
Erkennungsschwelle filr diesen nachsten fruheren Ton war, oder 
(b2) falls der Vergleichswert fur den fruheren Ton und das 
akustische Schweigemodell schlechter als die 
Schweigevergleichsschwelle ist, und falls der beste 
Vergleichswert filr den fruheren Ton und ein akustisches - 
Befehlsmodell schlechter als die Erkennungsschwelle fur diesen 
frUheren Ton war. 




- 6 - 

Das Erkennungs signal kann beispielsweise ein Bef ehlssignal zum 
Aufrufen eines dem Befehl zugeordneten Programms sein. In 
einem Aspekt der Erfindung umfasst das Ausgabemittel eine 
Anzeige, und das Ausgabemittel zeigt ein oder mehrere Worte 
an, die dem Bef ehlsmodell mit dem besten Vergleichswert fur 
einen aktuellen Ton entsprechen, falls der beste 
Vergleichswert fiir den aktuellen Ton besser als der 
Erkennungsschwellenwert fur den aktuellen Ton ist. 

In einem anderen Aspekt der Erfindung gibt das Ausgabemittel 
ein Anzeigesignal fur einen nicht erkennbaren Ton aus, falls 
der beste Vergleichswert fiir den aktuellen Ton schlechter als 
der Erkennungsschwellenwert fiir den aktuellen Ton ist. Das 
Ausgabemittel kann beispielsweise eine Anzeige fUr einen nicht 
erkennbaren Ton ausgeben, falls der beste Vergleichswert far 
den aktuellen Ton schlechter als der Erkennungsschwellenwert 
fur den aktuellen Ton ist. Die Anzeige fiir einen nicht 
erkennbaren Ton kann beispielsweise ein oder mehrere 
Fragezeichen umfassen. 

Der Akustikprozessor in der Spracherkennungsvorrichtung gemafi 
der Erfindung kann u.a. ein Mikrofon umfassen. Jeder Ton kann 
beispielsweise ein Vokalton sein, und jeder Befehl kann 
mindestens ein Wort umfassen. 

Gemafl einem weiteren Aspekt der Erfindung wird ein 
Spracherkennungsverf ahren bereitgestellt , wie es in Anspruch 
11 definiert wird. 

Gemafl der Erfindung konnen akustische Vergleichsprozessoren 
folglich in drei Kategorien unterteilt werden. Wenn der beste 
Vergleichswert besser als ein "guter" Vertrauenswert ist, 



entspricht das Wort bzw. die Worte, die dem akustischen Modell 
mit dem besten Vergleichswert entsprechen, fast immer den 
gemessenen Tonen. Andererseits entspricht das Wort, das dem 
akustischen Modell mit dem besten Vergleichswert entspricht, 
fast nie den gemessenen Tonen, falls der beste Vergleichswert 
schlechter als ein "schlechter" Vertrauenswert ist. Wenn der 
beste Vergleichswert besser als der "schlechte" 
Vertrauenswert, jedoch schlechter als der "gute" 
Vertrauenswert ist, entspricht das Wort, das dem akustischen 
Modell mit dem besten Vergleichswert entspricht, mit hoher 
Wahrscheinlichkeit dem gemessenen Ton, wenn fur das zuvor 
erkannte Wort angenommen wurde, da es eine hohe 
Wahrscheinlichkeit hat, dem vorhergehenden Ton zu entsprechen. 
Wenn der beste Vergleichswert besser als der "schlechte" 
Vertrauenswert, jedoch schlechter als der "gute" 
Vertrauenswert ist, entspricht das Wort, . das dem akustischen 
Modell mit dem besten Vergleichswert entspricht, mit geringer 
Wahrscheinlichkeit dem gemessenen Ton, wenn das zuvor erkannte 
Wort ausgeschlqssen wurde, da es eine geringe 

Wahrscheinlichkeit hat, dem vorhergehenden Ton zu entsprechen. 
Falls jedoch zwischen einem zuvor ausgeschlossenen Wort und 
dem aktuellen Wort mit dem besten Vergleichswert, der besser 
als der "schlechte" Vertrauenswert, jedoch schlechter als der 
"gute" Vertrauenswert ist, genugend Schweigen liegt, wird das 
aktuelle Wort ebenfalls mit einer hohen Wahrscheinlichkeit, 
dem gemessenen aktuellen Ton zu entsprechen, angenommen, 

Durch die Annahme der Vertrauenswerte gemafi der Erf indung 
haben eine Vorrichtung und ein Verfahren zur Spracherkennung 
eine hohe Wahrscheinlichkeit, akustische Obereinstimmungen mit 
unbeabsichtigten Tonen oder gesprochenen Worten, die nicht fur 
die Spracherkennungseinrichtu ng v orgesehen sind, 
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auszuschliefien. Das heiflt, durch die Annahme der 

- 

Vertrauenswerte gemaB der Erfindung haben eine Vorrichtung und 
ein Verfahren zur Spracherkennung, die das akustische Modell 
mit der besten Obereinstimmung mit einem Ton kennzeichnen, 
eine hohe Wahrscheinlichkeit, das am besten ubereinstimmende 
akustische Modell auszuschliefien, falls der Ton unbeabsichtigt 
oder nicht ftir die Spracherkennungseinrichtung vorgesehen ist, 
und eine hohe Wahrscheinlichkeit, das am besten 
Ubereinstimmende akustische Modell anzunehmen, falls der Ton 
ein oder mehrere Worte darstellt, die fur die 
Spracherkennungseinrichtung vorgesehen sind. 

Kurze Besctireibung der Zeichnungen 

Figur 1 ist ein Blockschaltbild eines Beispiels einer 
Spracherkennungsvorrichtung gemafi der Erfindung* 

Figur 2 zeigt schematisch ein Beispiel eines akustischen 
Bef ehlsmodells . 

Figur 3 zeigt schematisch ein Beispiel eines akustischen . 
Schweigemo dells . 

Figur 4 zeigt schematisch ein Beispiel des akustischen 
Schweigemodells von Figur 3, das mit dem Ende des 
akustischen Bef ehlsmodells von Figur 2 verkettet ist. 

» 

Figur 5 zeigt schematisch die Status und moglichen Obergange 

zwischen Status ftir das kombinierte akustische Modell von 
Figur 4 zu jedem aus einer Anzahl von Zeitpunkten t. 
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Figur 6 ist ein Blockschaltbild eines Beispiels des 
Akustikprozessors von Figur 1. 

* 

Beschreibung der bevorzugfen Ausfiihrungsf ormen 

< 

Mit Bezugnahme auf Figur 1 umfasst die 
Spracherkennungsvorrichtung gemafi der Erfindung einen 
Akustikprozessor 10 zum Messen des Wertes von mindestens einem 
Merkmal von jedem aus einer Folge von mindestens zwei Tonen. 
Der Akustikprozessor 10 misst den Wert des Merkiuals jedes Tons 
wahrend jedes aus einer Reihe auf einanderf olgender 
Zeitintervalle, urn eine Reihe von Merkmalsignalen zu erzeugen, 
die die Merkmalwerte des Tons darstellen. 

Wie unten ausfuhrlicher beschrieben wird, kann der 
Akustikprozessor beispielsweise die Amplitude jedes Tons in 
einem oder mehreren Frequenzbandern wahrend einer Folge von 
Zeitintervallen von zehn Millisekunden messen, urn eine Folge 
von Merkmalvektorsignalen zu erzeugen, die die Amplitudenwerte 
des Tons darstellen- Bei Bedarf konnen die 
Merkmal vektorsignale quantisiert werden, indem jedes 
Merkmalvektor signal durch ein Pro totypvektor signal aus einem 
Satz vori Prototypvektorsignalen ersetzt wird, das am besten 
mit dem Merkmalvektorsignal tibereinstimmt . Jedes 
Prototypvektorsignal hat eine Kennzeichnung, und folglich 
erzeugt der Akustikprozessor in diesem Fall eine Reihe von 
Kennzeichnungssignalen, die die Merkmalwerte des Tons 
darstellen. 

Die Spracherkennungsvorrichtung umfasst auJierdem einen 
Speicher 12 fiir akustische Bef ehlsmodelle zur Speicherung 
eines Satzes akustischer Bef ehlsmodelle . Jedes akustisch e 
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Bef ehlsmodell stellt eine oder mehrere Folgen akustischer 
Merkmalwerte dar, die eine Auflerung eines dem akustischen 
Befehlsmodell zugeordneten Befehls darstellen. 

Die gespeicherten akustischen Bef ehlsmodelle koiinen 
beispielsweise Markow-Modelle oder andere dynamische 
Programmiermodelle sein. Die Parameter der akustischen 
Bef ehlsmodelle konnen aus einem bekannten Obungstext geschatzt 
werden, beispielsweise durch Glattungsparameter, die durch den 
Vorwarts-Riickwarts-Algorithmus erhalten werden. (Siehe 
beispielsweise F. Jelinek, "Continous Speech Recognition by 
Statistical Methods." Proceedings of the IEEE / Band 64, Nr. 4, 
April 1976, Seiten 532 bis 556.) 

Vorzugsweise stellt jedes akustische Befehlsmodell einen 

i 

isolierten, gesprochenen Befehl dar (das heii3t, unabhangig vom 
Kontext frtiherer und nachf olgender AuBerungen) . 
Kontextunabhangige akustische Bef ehlsmodelle konnen 
beispielsweise manuell aus Modellen von Phonemen oder 
automatisch erzeugt werden, beispielsweise durch das von Lalit 
R. Bahl et al. in der US-Patentschrif t 4 759 068, mit dem 
Titel "Constructing Markov Models of Words From Multiple 
Utterances", beschriebene Verfahren oder durch jedes andere 
bekannte Verfahren zur Erzeugung kontextunabhangiger Modelle. 

Alternativ konnen kontextabhangige Modelle aus 

kontextunabhangigen Modellen erzeugt werden, indem AuJJerungen 
eines Befehls in kontextabhangige Kategorien gruppiert werden. 
Ein Kontext kann zum Beispiel manuell oder automatisch 
ausgewahlt werden, indem jedes einem Befehl entsprechende 
Merkmalsignal mit seinem Kontext gekennzeichnet wird und indem 
die Merkmalsignale gemafi ihrem Kontext gruppiert werden, urn 



eine ausgewahlte Bewertungsf unktion zu optimieren. (Siehe 
beispielsweise Lalit R. Bahl et al., "Apparatus and Method of 
Grouping Utterances of a Phoneme into Context-Dependent 
Categories Based on Sound-Similarity for Automatic Speech 
Recognition.", US-Patentschrif t 5 195 167.) 

Figur 2 zeigt schematisch ein Beispiel eines hypothetischen 
akustischen Bef ehlsmodells . In diesem Beispiel umfasst das 
akustische Bef ehlsmodell vier Status SI, S2, S3 und S4, die in 
Figur 2 als Punkte dargestel.lt werden. Das Modell beginht beim 
Anf angsstatus SI und endet beim letzten Status S4. Die 
gestrichelten Nullubergange bedeuten, dass kein akustisches 
Merkmalsignal vom Akustikprozessor 10 ausgegeben wurde; Jedem 
Obergang mit durchgezogener Linie entspricht eine 
Ausgabewahrscheinlichkeitsverteilung iiber alle vom 
Akustikprozessor 10 erzeugten Merkmalvektorsignale oder 
Kennzeichnungssigna;ie. Fur jeden Status des Modells gibt es 
eine entsprechende Wahrscheinlichkeitsverteilung iiber die 
Obergange aus diesem Status heraus. 

Wiederum mit Bezugnahme auf Figur 1 umfasst die 
Spracherkennungsvorrichtung aufierdem einen 

Vergleichswertprozessor 14 zum Erzeugen eines Vergleichswertes 
fftlr jeden Ton und ein oder mehrere akustische Bef ehlsmodelle 
aus dem Satz akustischer Bef ehlsmodelle im Speicher 12 fur 
akustische Bef ehlsmodelle . Jeder Vergleichswert umfasst eine 
Schatzung der Genauigkeit einer Obereinstimmung zwischen dem 
akustischen Bef ehlsmodell und einer Folge dem Ton 
entsprechender Merkmalsignale vom Akustikprozessor 10. 

m 

i 

Ein Erkennungsschwellenkomparator und -ausgabemi.ttel 16 gibt 
ein E r k en nung s signal aus f das dem Bef ehlsmodel l au s dem 
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Speicher 12 fur akustische Bef ehlsmodelle mit dem besten 
Vergleichswert fur einen aktuellen Ton entspricht, falls der 
beste Vergleichswert fur den aktuellen . Ton besser als ein 
Erkennungsschwellenwert fur den aktuellen Ton ist. Die 
Erkennungsschwelle fur den aktuellen Ton umfasst einen ersten 
Vertrauenswert aus dem Speicher 18 fur Vertrauenswerte, falls 
der beste Vergleichswert fur einen fruheren Ton besser als 
eine Erkennungsschwelle fur diesen fruheren Ton war. Die 
Erkennungsschwelle fur den aktuellen Ton umfasst einen zweiten 
Vertrauenswert aus dem Speicher 18 fur Vertrauenswerte, der 
besser als der erste Vertrauenswert ist, falls der beste 
Vergleichswert fur einen fruheren Ton schlechter als die 
Erkennungsschwelle fur diesen fruheren Ton war. 

Die Spracherkennungsvorrichtung kann aufierdem einen Speicher 
20 fur akustische Schweigemodelle zur Speicherung von 
mindestens einem akustischem Schweigemodell, das eine oder 
mehrere Folgen akustischer Merkmalwerte darstellt, die das 
Fehlen einer gesprochenen Auflerung darstellen. Das akustische 
Schweigemodell kann beispielsweise ein Markow-Modell oder ein 
anderes dynamisches Programmiermodell sein. Die Parameter des 
akustischen Schweigemodells konnen aus einem bekannten 
geaunerten Ohungstext beispielsweise durch Glattungsparameter 
geschatzt werden, die auf dieselbe Weise wie bei den 
akustischen Bef ehlsmodellen aus dem Vorwarts-Ruckwarts- 
Algorithmus erhalten werden. 

Figur 3 zeigt schematisch ein Beispiel eines akustischen 
Schweigemodells. Das Modell beginnt beim Anf angsstatus S4 und 
endet beim Endstatus S10. Die gestrichelten Nullubergange 
bedeuten, dass kein akustisches Merkmalsignal ausgegeben wird. 
Jedem Obergang mit durchgezogener Linie entspricht eine 
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Ausgabewahrscheinlichkeitsverteilung uber die vom 
Akustikprozessor 10 erzeugten Merkmalsignale (zum Beispiel 
Merkmalvektorsignale oder Kennzeichnungssignale) . Fur jeden 
Status S4 bis S10 gibt es eine entsprechende 
Wahrscheinlichkeitsverteilung uber die tlbergange aus diesem 

Status heraus. 

i 

* * w 

Wiederum mit Bezugnahme auf Figur 1 erzeugt der 
Vergleichswertprdzessor 14 einen Vergleichswert fiir jeden Ton 
und das akustische Schweigemodell im Speicher 20 fiir 
akustische Schweigemodelle . Jeder Vergleichswert mit dem 
akustischen Schweigemodell umfasst eine Schatzung der 
Genauigkeit einer Ubereinstimmung zwischen dem akustischen 
Schweigemodell und einer Folge dem Ton entsprechender 
Merkmalsignale. 

In dieser Variante der Erfindung umfasst die vom 
Erkennungsschwellenkomparator und -ausgabemittel 16 verwendete 
Erkennungsschwelle den ersten Vertrauenswert, falls der 
Vergleichswert fiir den f ruheren Ton und das akustische 
Schweigemodell besser als eine aus dem Speicher 22 fur 
Schweigevergleichs- und Schweigedauerschwellen erhaltene 
Schweigevergleichsschwelle ist f und falls der frtlhere Ton eine 
Dauer hat, die eine im Speicher 22 fiir Schweigevergleichs- und 
Schweigedauerschwellen gespeicherte Schweigedauerschwelle 
uberschreitet. Alternativ umfasst die Erkennungsschwelle fur 
den aktuellen Ton den ersten Vertrauenswert, falls der 
Vergleichswert fUr den f ruheren Ton und das akustische 
Schweigemodell besser als die Schweigevergleichsschwelle ist 
und falls der fruhere Ton eine Dauer hat, die geringer als die 
Schweigedauerschwelle ist, und falls der beste Vergleichswert 
fiir den nachsten f ruheren Ton und ein akustisches 



Befehlsmodell besser als eine Erkennungsschwelle fur diesen 
nachsten frUheren Ton war. Schliefilich umfasst die 
Erkennungsschwelle fur den aktuellen Ton den ersten 
Vertrauenswert, falls der Vergleichswert fur den frUheren Ton 
und das akustische Schweigemodell schlechter als die 
Schweigevergleichsschwelle ist und falls der beste 
Vergleichswert fur den frUheren Ton und ein akustisches 
Befehlsmodell besser als eine Erkennungsschwelle fUr diesen 
frUheren Ton war. 

In dieser Aus fUhrungs form der Erfindung umfasst die 
Erkennungsschwelle fUr den aktuellen Ton den zweiten 
Vertrauenswert, der besser als der erste Vertrauenswert aus 
dem Speicher 18 fur Vertrauenswerte ist, falls der 
Vergleichswert vom Vergleichswertprozessor 18 fUr den frUheren 
Ton und das akustische Schweigemodell besser als die 
Schweigevergleichsschwelle ist und falls der frUhere Ton eine 
Dauer hat, die geringer als die Schweigedauerschwelle ist, und 
falls der beste Vergleichswert fur den nachsten fruheren Ton 
und ein akustisches Befehlsmodell schlechter als die 
Erkennungsschwelle fur diesen nachsten frUheren Ton war. 
Alternativ umfasst die Erkennungsschwelle fUr den aktuellen 
Ton den zweiten Vertrauenswert, der besser als der erste 
Vertrauenswert ist, falls der Vergleichswert den frUheren Ton 
und das akustische Schweigemodell schlechter als die 
Schweigevergleichsschwelle ist und falls der beste 
Vergleichswert fUr den frUheren Ton und ein akustisches 
Befehlsmodell schlechter als die Erkennungsschwelle fur diesen 
frUheren Ton war. 

Zur Erzeugung eines Vergleichswertes fUr jeden Ton und jedes 
von einem Oder mehreren akustischen Befehlsmodellen aus dem 
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Satz akustischer Bef ehlsmodelle im Speicher 12 far akustische 
Befehlsmodelle und zur Erzeugung eines Vergleichswertes fur 
jeden Ton und das akustische Schweigemodell im Speicher 20 fur 
akustische Schweigemodelle kann das akustische Schweigemodell 
von Figur 3 mit dem Ende des akustischen Bef ehlsmodells von 
Figur 2 verkettet werden, wie in Figur 4 gezeigt wird. Das 
kombinierte Modell beginnt im Anf angsstatus Si und endet ira 
Endstatus S10. 

Die Status SI bis S10 und die mOglichen ubergange zwischen den 
Status fiir das kombinierte akustische Modell von Figur 4 
werden zu jedem aus einer Anzahl von Zeitpunkten t in Figur 5 
schematisch gezeigt. Fur jedes der Zeitintervalle zwischen 
t=n-l und t=n erzeugt der Akustikprozessor ein Merkmalsignal 

Fiir jeden Status des in Figur 4 gezeigten korabinierten Model Is 
wird die bedingte Wahrscheinlichkeit P(s t = S a I X x ... X t ) , 
dass der Status s t zum Zeitpunkt t unter Berucksichtigung des 
Auftretens von Merkmalsignalen X x bis X t , die zu den 
Zeitpunkten 1 bis t jeweils vom Akustikprozessor 10 erzeugt 
werden, gleich dem Status S 0 ist, durch die Gleichungen 1 bis 
10 erhalten. 



PU t - SI \X } ...Xd = mP{s,_ , - Si> PCS - SU s t _ , - 51) 



[1] 



Pis, - .921 - m^s r _ , = SI) PQt = S2\ r, _ , - SY) 

p\x t \s, = 5ii,_, = s\y 

-+• m^C^ - ^ — SZ) FUi = S'2/.i / _ , — S2) 

rex, \t, = 5^, _ , — .rey ■ 1 2 j 
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P(s t = SZ\X x ...X r ) = 



mP{s, _ i = 52) P(s t = 53 1 x t _ , = 52) 
P(X t \ s t = S3, J, _ , = 52V 

Pis, S2) P{s, = 53 1 j, = 5-2) 
4- ( =■* 53) P{x, = 53 1 s t _ , « 53) 



13] 



54 J X x . . .Xj) = mP(s t _ , = 53) /'(.ty = 54 1 _ , — 53) 

P(^b f = 54. 3,_ , = S3)" 
+ P{s t = 53) = 54 1 = 53) 



P(s f = S6\X v ..X} = 



nU>(j x _ , = 55) P{s, = 561 _ , = 55) 

/>{ X t | t f = 56, J, L | = 55)'* 
+ fliy{T, _ , = 56) P(s, = 56 1 .r, _ , = 561 

I s r = 56, .r, _ , = sey 



P(s, = S6\X v ..X,-) = 



mnr, _ « = 55) P{s f = 56 U,_ , = 55) ■ 

P{X, I .t> = 56, s, , = 55)" 
+ fll7>(.r, _ , = S6) P{s t = 56 1 s f _ , = 561 
/ , (.V / |j r = 56,.t,_ , =56)" 



[4] 



[5] 



[6] 



P(s, = 57 \X t ...AT,) = 



m /»( Jf t _ , = 56) />(,, = 57|j f _ , = 

/•(AT, I J,= 57, jj_ , = 5-6)" 
+ Fi s i — , = 57) />(>, = 57| Jf _ , 
^1^ = 57, j, _ , =,.57)" 



561 



= 57) 



[7] 



P{s t = SS\X l ...X l ) .= fH/>(.r, _ , = 54) = 58 U,_ j = 54) 
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P{s { = S9 \ ,Y, ...X { ) = mP{s f _ j - 58) P{s t » 59 1 58) 

/ 5 (* r U, = 59,J r _, =58)" 



[9] 



P(s t = SW\X i ...X t ) = /»(*, = 54) /»(* f «S!0|.f, = 54) 

+ />(.r f = 58) P(j. = 510U,= S8) 

+ ffl P(s, _ , = 57) /V, = 5T0| fj _ 3 = 57) 
/ > (.V,I J r = 510, t, _ , = ST)" 

P{X,\s, = 510, -f f _ , = 59)" 



[10] 



Zur Normierung der bedingten Statuswahrscheinlichkeiten, um 
die verschiedenen Anzahlen von Merkmalsignalen (Xi . . . X n ) zu 
verschiedenen Zeitpunkten t zu berticksichtigen, kann ein 
normierter Statusausgabewert Q fur einen Status a zum 
Zeitpunkt t durch die Gleichung 11 gegeben werden . 



Q(<r, 0 = — 



t 



i = 1 



[11] 



Geschatzte Werte fur die bedingten Wahrscheinlichkeiten P(s t = 

So I Xi ... X t ) der Status (in diesem Beispiel der Status Si 

bis S10) konnen aus den Gleichungen 1 bis 10 erhalten werden, 

indem die Werte der Ubergangswahrscheinlichkeitspararaeter und 

der Ausgabewahrscheinlichkeitsparameter der akustischen 

Bef ehlsmodelle und der akustischen Schweigemodelle verwendet 

werden. 



Geschatzte Werte fur den normierten Statusausgabewert Q konnen 
aus der Gleichung 11 erhalten werden, indem die 
Wahrscheinlichkeit P(Xi) jedes beobachteten Merkmalsignals Xi 
als Produkt aus der bedingten Wahrscheinlichkeit P (X t I Xi i) 
des Merkmalsignals Xi unter Berucksichtigung des unmittelbar 
frttheren Auftretens des Merkmalsignals Xi -i, multipliziert mit 
der Wahrscheinlichkeit P(Xi . i) des Auftretens des 
Merkmalsignals Xi -i, geschatzt wird. Der Wert von P (Xi I Xi - i) 
P(Xi . i) kann fur alle Merkmalsignale X ± und X t - 1 geschatzt 
werden, indem das Auftreten von Merkmalsignalen gezahlt wird, 
die gemafl der Gleichung 12 aus einem Obungstext erzeugt 
werden. 



p{x s \x^ onx^ o - n(Xj _ |) n — 

N{X t .X t _ x ) 
N 



[12] 



In der Gleichung 12 ist N(Xi , Xi _ i) die Anzahl des Auftretens 
des Merkmalsignals X A , dem das durch die AuBerung des 
Trainingstextes erzeugte Merkmalsignal Xi . x unmittelbar 
vorangeht, und N ist die Gesamtanzahl von Merkmalsignalen, die 
durch die Aufierung des Obungstextes erzeugt werden. 

Aus der obigen Gleichung 11 konnen die normierten 
Statusausgabewerte Q(S4, t) und Q(S10, t) fur die Status S4 
und S10 des kombinierten Modells von Figur 4 erhalten werden. 
Der Status S4 ist der letzte Status des Bef ehlsmodells und der 
erste Status des Schweigemodells . Der Status S10 ist der 
letzte Status des Schweigemodells. 



In einem Beispiel der Erf indung kann ein Vergleichswert fur 
einen Ton und das akustische Schweigemodell zum. Zeitpunkt t 
durch das Verhaltnis des normierten Statusausgabewertes 
Q[S10,t) ftir den Status S10 dividiert durch den normierten 
Statusausgabewert Q[S4,t] ftir den Status S4 gegeben werden, 
wie in der Gleichung .13 gezeigt wird. 

• 

Q[S10,t] 

Schweigestart-Vergleichswert = * — 

Q[S4,t] [13] 

Der Zeitpunkt t = tstart, zu dem der Vergleichswert ftir den Ton 
und das akustische Schweigemodell (Gleichung 13) zuerst eine 
Schweigevergleichsschwelle iiberschreitet, kann als der Beginn 

< 

eines Schweigeintervalls bet rachtet werden. Die 
Schweigevergleichsschwelle ist ein Abgleichparameter, der vom 
Benutzer eingestellt werden kann. Es wurde f estgestellt, dass 
eine Schweigevergleichsschwelle von 10 15 gute Ergebnisse 
erzeugt. 

Das Ende des Schweigeintervalls kann beispielsweise 
festgestellt werden, indem das Verhaltnis des normierten 
Statusausgabewertes QfSlC^t] fUr den Status S10 zum Zeitpunkt 
t, dividiert durch den erhaltenen Maximalwert ftir den 
normierten Statusausgabewert QmaxfSlO, t s tart* ...t] fiir den 
Status S10 liber die Zeitintervalle t st art bis t ausgewertet 
wird. 

Q[S10,t] 

Schweige ende- Vergleichswert = . 

QmaxCSlO, tstart, • . .t] [14] 
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Der Zeitpunkt t = t En d, zu dem der Wert des Schweigeende- 
Vergleichswertes von Gleichung 14 zuerst unter den Wert einer 
Schweigeendeschwelle fallt, kann'als das Ende des 
Schweigeintervalls betrachtet werden. Der Wert der 
Schweigeendeschwelle ist ein Abgleichparameter , der vom 
Benutzer eingestellt werden kann. Es wurde f estgestellt, dass 
ein Wert von 10~ 25 gute Ergebnisse bereitstellt. 

Falls der Vergleichsweft fur den Ton und das akustische 
Schweigemodell, wie er durch die Gleichung 13 gegeben wird, 
besser als die Schweigevergleichsschwelle 1st, wird das 
Schweigen als beim ersten Zeitpunkt tstart beginnend betrachtet, 
zu dem das Verhaltnis von Gleichung 13 die 

Schweigevergleichsschwelle iiberschreitet . Das Schweigen wird 
als beim Zeitpunkt t En d endend betrachtet, zu dem das 
Verhaltnis von Gleichung 14 kleiner als der zugeordnete 
Abgleichparameter ist. Die Dauer des Schweigens ist dann (tend 

~~ tstart) - 

Ftir die Entscheidung, ob die Erkennungsschwelle der erste 
Vertrauenswert oder der zweite Vertrauenswert sein sollte, ist 
die im Speicher 22 fur Schweigevergleichs- und 
Schweigedauerschwellen gespeicherte Schweigedauerschwelle ein 
Abgleichparameter, der vom Benutzer eingestellt werden kann. 

> ■ 

Es wurde beispielsweise festgestellt, dass eine 
Schweigedauerschwelle von 25 Zentisekunden gute Ergebnisse 
bereitstellt. 

■ * 

Der Vergleichswert filr jeden Ton und ein akustisches 
Bef ehlsmodell, das den Status SI bis S4 der Figuren 2 und 4 
entspricht, kann f olgendermafien erhalten werden. Falls _das 
Verhaltnis von G leic hung 13 die Schweigevergleichssch wel le 
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nicht vor dem Zeitpunkt tEnd iiberschreitet , kann der 
Vergleichswert fur jeden Ton und das den Status SI bis S4 der 
Figuren 2 und 4 entsprechende akustische Bef ehlsmqdell durch 
den maximalen normierten Statusausgabewert Q[S10, t f £ n d/ 
• ••tEnd] fur den Status S10 liber die Zeitintervalle t T End bis 
tend gegeben werden, wobei t f End das Ende des vorhergehenden 
Tons oder Schweigens ist und wobei t En d das Ende des aktuellen 
Tons oder Schweigens ist . Alternativ kann, der Vergleichswert 
flir jeden Ton und das akustische- Bef ehlsmodell durch die Summe 
der normierten Statusausgabewerte Q[S10, t] fur den Status S10 
tiber die Zeitintervalle t T En d bis tEnd gegeben werden. 

Falls jedoch das Verhaltnis von Gleichung 13 die 
Schweigevergleichsschwelle vor dem Zeitpunkt tEnd 
iiberschreitet/ kann der Vergleichswert flir den Ton und das 
akustische Bef ehlsmodell durch den normierten 

Statusausgabewert Q[S4, tstart] flir den Status S4 zum Zeitpunkt 
tstart gegeben werden, Alternativ kann der Vergleichswert flir 
jeden Ton und das akustische Bef ehlsmodell durch die Summe aus 
den normierten Statusausgabewerten Q[S4, t] flir den Status S4 
liber die Zeitintervalle t' E nd bis tstart gegeben werden. 

Der erste Vertrauenswert und der zweite Vertrauenswert flir die 
Erkennungsschwelle sind Abgleichparameter, die vom Benutzer 
eingestellt werden konnen. Die ersten und zweiten 
Vertrauenswerte konnen beispielsweise folgendermaiien erzeugt 
werden. 

Ein Ubungstext, der im Vokabular enthaltene Bef ehlsworte, die 
durch gespeicherte akustische Bef ehlsmodelle dargestellt 
werden, und auflerdem nicht im Vokabular enthaltene Worte 
umfasst, die-nicht durch gespeicherte akustische — — 

YO 993 04 0 : 



Bef ehlsmodelle dargestellt werden, wird von einem oder 
mehreren Sprechern gesprochen. Unter Verwendung der 
Spracherkennungsvorrichtung gemafl der Erfindung, jedoch ohne 
eine Erkennungsschwelle, wird eine Folge efkannter Worte 
erzeugt, die am besten mit dem gesprochenen, bekannten 
Obungstext ubereinstimmen. Jedem von der 

Spracherkennungsvorrichtung ausgegebenen Wort oder Befehl wird 
ein Vergleichswert zugeordnet . 

Durch den Vergleich der Befehlsworte im bekannten Obungstext 
mit den von der Spracherkennungsvorrichtung ausgegebenen, 
erkannten Worten konnen korrekt erkannte Worte und falsch 
erkannte Worte gekennzeichnet werden. Der erste Vertrauenswert 
karin beispielsweise der beste Vergleichswert sein, der 
schlechter als die Vergleichswerte von 99 % bis 100 % der 
korrekt erkannten Worte ist. Der zweite Vertrauenswert kann 
beispielsweise der schlechteste Vergleichswert sein, der 
besser als die Vergleichswerte von beispielsweise 99 % bis 100 
% der falsch erkannten Worte im Ubungstext ist. 

Das vom Erkennungsschwellenkomparator und -ausgabemittel 16 
ausgegebene Erkennungs signal kann ein Bef ehlssignal zum 
Aufrufen eines dem Bef ehl zugeordneten Programms umfassen. Das 
Bef ehlssignal kann beispielsweise die manuelle Eingabe von 
einem Befehl entsprechenden Tastenanschlagen simulieren. 
Alternativ kann das Bef ehlssignal ein Anwendungsprogramm- 
Schnittstellenauf ruf sein. 

Das Erkennungsschwellenkomparator und -ausgabemittel 16 kann 
eine Anzeige, beispielsweise eine Kathodenstrahlrohre, eine 
Flxlssigkristallanzeige oder einen Drucker umfassen. Das 
Erkennungsschwellenkomparator und -ausgabemittel 16 kann ein 



oder mehrere Worte anzeigen, die dem Bef ehlsmodell xuit dem 
besten Vergleichswert f ur einen aktuellen Ton entsprechen, 
falls der beste Vergleichswert fur den aktuellen Ton besser 
als der Erkennungsschwellenwert fur den aktuellen Ton ist. 

Das Ausgabemittel 16 kann wahlweise ein Signal fiir einen nicht 
erkennbaren Ton ausgeben, falls der beste Vergleichswert fiir 
den aktuellen Ton schlechter als der Erkennungsschwellenwert 
fiir den aktuellen Ton ist. Die Ausgabe 16 kann beispielsweise 
eine Anzeige fiir einen nicht erkennbaren Ton anzeigen, falls 
der beste Vergleichswert fiir den aktuellen Ton schlechter als 
der Erkennungsschwellenwert fiir den aktuellen Ton ist. Die 
Anzeige fiir einen nicht erkennbaren Ton kann ein oder mehrere 
angezeigte Fragezeichen umfassen. 

Jeder vom Akustikprozessor 10 gemessene Ton kann ein Vokalton 
oder ein anderer Ton sein. Jeder einem akustischen 
Bef ehlsmodell zugeordnete Befehl umfasst vorzugsweise 
mindestens ein Wort. 

Zu Beginn einer Spracherkennungssitzung kann die 
Erkennungsschwelle am ersten Vertrauenswert oder am zweiten 
Vertrauenswert initialisiert werderi. Vorzugsweise wird die 
Erkennungsschwelle fiir den aktuellen Ton zu Beginn einer 
Spracherkennungssitzung am ersten Vertrauenswert 
initialisiert. 

Die Spracherkennungsvorrichtung gemafi der vorliegenden 
Erfindung kann mit jeder bestehenden 

Spracherkennungseinrichtung verwendet werden, beispielsweise 
_mit dem IBM Speech Server Series- (Warenzeichen) Produkt. Der 
zYergleichswertprozessor 14 und das 

— — — 
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Erkennungsschwellenkomparator und -ausgabemittel 16 konnen 
beispielsweise geeignet programmierte spezielle oder 
allgemeine digitale Prozessoren sein. Der Speicher 12 fur 
akustische Bef ehlsmodelle, der Speicher 18 fur 
Vertrauenswerte, der Speicher 20 fur akustische 
Schweigemodelle und der Speicher 22 fur Schweigevergleichs- 
und Schweigedauerschwellen konnen beispielsweise einen 
elektronisch lesbaren Computerspeicher umfassen. 

■ 

Ein Beispiel des Akustikprozessors 10 von Figur 3 wird in 
Figur 6 gezeigt. Der Akustikprozessor uinfasst ein Mikrofon 24 
zum Erzeugen eines der Aufierung entsprechenden, analogen 
elektrischen Signals. Das analoge elektrische Signal vom 
Mikrofon 24 wird durch den Analog-Digital-Umsetzer 2 6 in ein 
digitales elektrisches Signal umgesetzt. Zu diesera Zweck kann 
das analoge Signal beispielsweise bei einer Geschwindigkeit 
von zwanzig Kilohertz vom Analog-Digital-Umsetzer 2 6 
abgetastet werden. 

Ein Fenstergenerator 28 erhalt beispielsweise alle zehn 
Millisekunden (eine Zentisekunde) einen Abtastwert des 
digitalen Signals mit einer Dauer von zwanzig Millisekunden 
vom Analog-Digital-Umsetzer 26. Jeder zwanzig Millisekunden 
lange Abtastwert des digitalen Signals wird vom 
Spektrumanalysator 30 analysiert, urn die Amplitude des 
digitalen Signalabtastwertes in jedem der beispielsweise 
zwanzig Frequenzbander zu erhalten. Vorzugsweise erzeugt der 
Spektrumanalysator 30 auiJerdem ein einundzwanzigdimensionales 

■ * 

Signal, das die Gesamtamplitude oder Gesamtleistung des 
zwanzig Millisekunden langen digitalen Signalabtastwertes 
darstellt. Der Spektrumanalysator 30 kann beispielsweise ein 



schneller Fourier-Transformations-Prozessdr sein. Alternativ 
kann er eine Gruppe von zwanzig Bandpassf iltern sein. 



Die vom Spektrumanalysator 30 erzeugten 

einundzwanzigdimensionalen Vektorsignale konnen so bearbeitet 
werden, dass Hintergrundrauschen durch einen adaptiven 
Rauschunterdruckungsprozessor 32 entfernt wird. Der 
Rauschunterdruckungsprozessor 32 subtrahiert einen 
Rauschvektor N(t) von dem in den Rauschunterdriickungsprozessor 
eingegebenen Merkmalvektor F ( t ) , urn einen ausgegebenen 
Merkmalvektor F r (t) zu erzeugen. Der 

Rauschunterdruckungsprozessor 32 passt sich an andernde 
Rauschpegel an^ indem er den Rauschvektor N(t) jedesmal, wenn 
der friihere Merkmalvektor F(t -1) als Rauschen oder Schweigen 
gekennzeichnet wird, periodisch aktualisiert ; Der Rauschvektor 
N(t) wird gemafi der folgenden Formel aktualisiert 



N{t - I) 4- klF{t -[) - Fp{t - 1)3 



(I + fc) 

[15] 



wobei N(t) der Rauschvektor zum Zeitpunkt t, N(t - 1) der 
Rauschvektor zum Zeitpunkt (t -1), k ein feststehender 
Parameter des adaptiven Rauschunterdruckungsmodells, F(t -1) 
der in den Rauschunterdruckungsprozessor 32 eingegebene 
Merkmalvektor zum Zeitpunkt {t - 1) ist und der Rauschen oder 
Schweigen darstellt, und Fp(t -1) ein Schweige- oder 
Rauschprototypvektor aus dem Speicher 24 ist, der die grofite 
Annaherung zum Merkmalvektor F(t -1) hat. 
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Der fruhere Merkmalvektor F(t - 1) wird als Rauschen oder 
Schweigen erkannt, falls (a) die Gesamtenergie des Vektors 
unter einer Schwelle liegt oder (b) der Prototypvektor ira 
Anpassungsprototypvektorspeicher 36 mit der grbflten Annaherung 
an den Merkmalvektor ein Prototyp ist, der Rauschen oder 
Schweigen darstellt. Fur die Analyse der Gesamtenergie des 
Merkmalvektors kann die Schwelle beispielsweise das flinfte 
Percent il . aller Merkmalvektoren sein (sowohl Sprache als auch 
Schweigen entsprechend) , die in den beiden Sekunden vor der 
Auswertung des Merkmalvektors erzeugt werden. 

Nach der Rauschunterdruckung wird der Merkmalvektor F' (t) zur 
Anpassung an Anderungen der Lautstarke der eingegebenen 
Sprache durch den Normierungsprozessor 38 fur kurzzeitige 
Mittelwerte normiert„ Der Normierungsprozessor 38 normiejrt den 
einundzwanzigdiiaensionalen Merkmalvektor F' (t) , urn einen 
normierten einundzwanzigdiiaensionalen Merkmalvektor X(t) zu 
erzeugen. Die einundzwanzigste Dimension des Merkmalvektors 
F f (t) , die die Gesamt amplitude oder die Gesamtenergie 
darstellt, wird geloscht. Jede Komponente i des normierten 
Merkmalvektors X(t) zum Zeitpunkt t kann beispielsweise durch 
die folgende Gleichung im logarithmischen Bereich gegeben 
werden 

■ 

[16] 

wobei F'i(t) die i-te Komponente des nicht normierten Vektors 
zum Zeitpunkt t ist und wobei Z(t) ein gewichtetes Mittel der 
Komponenten von F T (t) und Z(t -1) gemafi den Gleichungen 17 und 
18 ist: 





9 * 
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[17] 



und wobei 



[18] 



Der normierte einundzwanzigdimensionale Merkmalvektor X(t) 
kann aufterdem zur Anpassung an Anderungen bei der Aussprache 
von Sprachtonen durch eine adaptive Kennzeichnungseinrichtung 
40 verarbeitet werden. Ein angepasster 

einundzwanzigdiiaensionaler Merkmalvektor X f (t) wird erzeugt, 
indem ein einundzwanzigdiiaensionaler Anpassungsvektor A(t) vom 
einundzwanzigdimensionalen Merkmalvektor X(t), der zum Eingang 
der adaptiven Kennzeichnungseinrichtung 40 gesendet wird, 
subtrahiert wird. Der Anpassungsvektor A(t) zum Zeitpunkt t 
kann beispielsweise durch die folgende Formel gegeberi werden 



A{t - i) -t- klX(t - 1} - Xp(i - I)] 
A{( ) = — — 



[19] 



wobei k ein f eststehender Parameter des adaptiven 
Kennzeichnungsmodells, X(t - 1) der zum Zeitpunkt (t -1) in 
die adaptive Kennzeichnungseinrichtung 40 eingegebene, 
normierte einundzwanzigdimensionale Vektor, Xp (t - 1) der 
Anpassungsprototypvektor (aus -dem Anpassungsprototypspeicher 
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36) mit der grofiten Annaherung an den 

einundzwanzigdimensionalen Merkmalvektor X(t - 1) zum 
Zeitpunkt (t - 1) und A(t - 1) der Anpassungsvektor zum 
Zeitpunkt (t - 1) ist. 

Das angepasste einundzwanzigdimensionale Merkmalvektorsignal 
X 1 (t) aus der adapt iven Kennzeichnungseinrichtung 4 0 wird 
vorzugsweise zu einem Hormodell (auditory model) 42 gesendet. 
Das Hormodeli 42 kann beispielsweise ein Modell davon 
bereitstellen, wie das menschliche Horsystem Tonsignale 

wahrnimmt. Ein Beispiel eines Horsystems wird in der US- 

■ 

Patentschrift 4 980 918 von Bahl et al . mit dem Titel "Speech 
Recognition System with Efficient Storage and Rapid Assembly 
of Phonological Graphs" beschrieben. 

Vorzugsweise berechnet das Hormodell 42 gemafi der Erfindung 
ftlr jedes Frequenzband i des angepassten Merkmalvektorsignals 
X 1 (t) zum Zeitpunkt t einen neuen Parameter Ei(t) gemafi den 

* 

Gleichungen 20 und 21: 
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wobei 
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und wobei K x , K 2 und K 3 feststehende Parameter des Hormodells 
sind. 

Fur jedes Zentisekunden-Zeitintervall ist die Ausgabe des 
Hormodells 42 ein geandertes einundzwanzigdimensionales 
Merkmalvektorsignal . Dieser Merkmalvektor wird durch eine 
einundzwanzigste Dimension mit einem Wert, der gleich der 
Quadratwurzel aus der Summe der Quadrate der anderen zwanzig 
Dimensionen ist, erhoht. 

Fur jedes Zentisekunden-Zeitintervall verkettet eine 
Verkettungseinrichtung 44 vorzugsweise neun 
einundzwanzigdimensionalen Merkmalvektoren, die das eine 
aktuelle Zentisekunden-Zeitintervall, die vier vorhergehenden 
Zentisekunden-Zeitintervalle und die vier folgenden 
Zentisekunden-Zeitintervalle darstellen, urn einen einzigen 
verknupften Vektor von 189 Dimensionen zu bilden. Jeder 
verknupfte Vektor der 189 Dimensionen wird vorzugsweise in 
einem Drehoperator 46 mit einer Drehmatrix multipliziert, urn 
den verknlipften Vektor zu drehen und um den verknupften Vektor 
auf ftinfzig Dimensionen zu reduzieren. 

Die im Drehoperator 4 6 verwendete Drehmatrix kann 
beispielsweise erhalten werden, indent ein Satz verknupfter 
Vektoren von 18 9 Dimensionen, die wahrend einer 
Trainingssitzung erhalten werden, in M Klassen eingeteilt 
werden. Die Kovarianzmatrix wird fUr alle der verknttpften 
Vektoren im Trainingssatz mit dem Inversen der in der Klasse 
enthaltenen Kovarianzmatrix fur alle der verknupften Vektoren 
in alien M Klassen multipliziert. Die ersten ftinfzig 
Eigenvektoren der resultierenden Matrix bilden_die Drehmatrix • 
(Siehe z um, Beispiel "Vector Quantization Pro cedu re For Speech 
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Recognition Systems Using Discrete Parameter Phoneme-Based 
Markov Word Models" von L.R. Bahl et al., IBM Technical 
Disclosure Bulletin, Band 32, Nr. 7, Dezember 1989, Seiten 320 
und 321 . ) 

- 

Der Fenstergenerator 28, der Spektrumanalysator 30, der 
adaptive Rauschunterdruckungsprozessor 32, der 
Normierungsprozessor 38 fttr kurzzeitige Mittelwerte, die 
adaptive Kennzeichnungseinrichtung 40, das Hormodell 42, die 
Verkettungseinrichtung 4 4 und der Drehoperator 4 6 konnen 
geeignet programmierte spezielle oder allgemeine digitale 
Signalprozessoren sein. Die Prototypspeicher 34 und 36 kdnnen 
elektronische Computerspeicher der oben erlauterten Typen 
sein. 

Die Prototypvektoren im Prototypspeicher 34 konnen 
beispielsweise erhalten werden, indem die Merkiaalvektorsignale 
aus einem Trainingssatz in eine Vielzahl von 
Zuordnungseinheiten eingeordnet und anschlieftend die 
Durchschnitts- und Standardabweichung fur jede 
Zuordnungseinheit berechnet wird, urn die Parameterwerte des 
Prototypvektors zu bilden, Wenn der Obungstext eine Folge von 
Wortsegmentmodellen (die ein Modell einer Folge von Worten 
bilden) und jedes Wortsegmentmodell eine Folge von 
Elementarmodellen mit angegebenen Positionen in den 
Wortsegmentmodellen umfasst, konnen die Merkmalvektorsignale 
in Gruppen geordnet werden, indem angegeben wird, dass jede 
Zuordnungseinheit einem einzigen Elementarmodell in einer 
einzigen Position in einem einzigen Wortsegmentmodell 
entspricht. Ein solches Verfahren wird in der US- 
Patentanmeldung mit der Seriennr. 730 714, eingereicht am 16. 
Juli 1991, mit dem Titel "Fast Algorithm for Deriving Acoustic 



Prototypes for Automatic Speech Recognition" ausfiihrlicher 
beschrieben. 

Alternativ konnen alle akustischen Merkmalvektoren, die durch 
die Auflerung eines Obungstextes erzeugt werden und die einem 
gegebenen Elementarmodell entsprechen, durch euklidische K- 
Mittelwert-Zuordnung oder Gaufische K-Mittelwert~Zuordnung oder 
beides in Gruppen eingeordnet werden. Ein solches Verfahren 
wird beispielsweise von Bahl et al. in der US-Patentschrif t 5 
182 773 mit dem Titel "Speaker- Independent Label Coding 
Apparatus" beschrieben. 
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ANSPROCHE 

1. Spracherkennungseinrichtung, die Folgendes umfasst: 

einen Akustikprozessor (10) zum Messen des Wertes von 
mindestens einem Merkmal von jedem aus einer Folge von 
mindestens zwei Tonen, wobei der Akustikprozessor (10) 
den Wert des Merkmals jedes Tons wahrend jedes aus einer 
Reihe auf einanderf olgender Zeitintervalle misst, urn eine 
Reihe von Merkmalsignalen zu erzeugen, die die 
Merkmalwerte des Tons darstellen; 

Mittel (12) zum Speichern eines Satzes akustischer 
Befehlsmodelle, wobei jedes akustische Bef ehlsmodell eine 
Oder mehrere Reihen akustischer Merkmalswerte. darstellt, 
die eine AuBerung eines dem akustischen Bef ehlsmodell 
zugeordneten Bef ehls darstellen; 

• ■ • 

einen Vergleichswertprozessor (14) zum Erzeugen eines 
Vergleichswertes ftir jeden Ton und jedes von einem oder 
mehreren akustischen Bef ehlsmodellen aus dem Satz 
akustischer Befehlsmodelle, wobei jeder Vergleichswert 
eine Sch&tzung der Genauigkeit einer Obereinstimmung 
zwischen dem akustischen Bef ehlsmodell und einer Reihe 
dem Ton entsprechender Merkmalsignale umfasst; 

v 

gekennzeichnet durch: 

Mittel (16) zum Ausgeben eines Erkennungssignals, das dem 
Bef ehlsmodell mit dem besten Vergleichswert ftir einen 
aktuellen Ton entspricht, falls der beste Vergleichswert 
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fur den aktuellen Ton besser als ein 

Erkennungsschwellenwert fUr den aktuellen Ton ist, wobei 
die Erkennungsschwelle fur den aktuellen Ton Folgendes 
umfasst: (a) einen ersten Vertrauenswert, falls der beste 
Vergleichswert fur einen frtiheren Ton besser als eine 
Erkennungsschwelle fUr diesen frtiheren Ton war, oder (b) 
einen zweiten Vertrauenswert, der besser als der erste 
Vertrauenswert ist, falls der beste Vergleichswert ftir 
einen frtiheren Ton schlechter als die Erkennungsschwelle 
fur diesen frtiheren Ton war. 

Spracherkennungsvorrichtung nach Anspruch 1, dadurch 
gekennzeichnet, dass der friihere Ton unmittelbar vor dem 
aktuellen Ton auftritt. 

Spracherkennungsvorrichtung nach Anspruch 2, dadurch 
gekennzeichnet, dass: 

die Vorrichtung auiSerdem Mittel (20) zum Speichern von 
mindestens einem akustischen Schweigemodell umfasst, das 
eine oder mehrere Reihen akustischer Merkmalswerte 
darstellt, die das Nichtvorhandensein einer gesprochenen 
AuBerung darstellen; 

der Vergleichswertprozessor (10) ftir jeden Ton und das 
akustische Schweigemodell einen Vergleichswert erzeugt, 
wobei jeder Vergleichswert eine Schatzung der Genauigkeit 
einer Obereinstimmung zwischen dem akustischen 
Schweigemodell und einer Reihe von dem Ton entsprechenden 
Merkmalsignalen umfasst; und 
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die Erkennungsschwelle fur den aktuellen Ton den ersten 
Vertrauenswert umfasst, (al) falls der Vergleichswert fur 
den fruheren Ton und das akustische Schweigemodell besser 
als eine Schweigevergleichsschwelle ist und falls der 
fruhere Ton eine Dauer aufweist, die eine 
Schweigedauerschwelle Ubersteigt, oder (a2) falls der 
Vergleichswert fur den fruheren Ton und das akustische 
Schweigemodell besser als die Schweigevergleichsschwelle 
ist und falls der friihere Ton eine Dauer hat, die kUrzer 
als die Schweigedauerschwelle ist und falls der beste 
Vergleichswert ftir den nachsten friiheren Ton und ein 
akustisches Bef ehlsmodell besser als eine 
Erkennungsschwelle ftir diesen nachsten friiheren Ton war, 
oder (a3) falls der Vergleichswert fUr den friiheren Ton 
und das akustische Schweigemodell schlechter als die 
Schweigevergleichsschwelle ist und falls der beste 
Vergleichswert ftir den fruheren Ton und ein akustisches 
Bef ehlsmodell besser als eine Erkennungsschwelle ftir 
diesen friiheren Ton war; oder 

dass die Erkennungsschwelle fur den aktuellen Ton den 
zweiten Vertrauenswert umfasst, der besser als der erste 
Vertrauenswert ist, (bl) falls der Vergleichswert ftir den 
friiheren Ton und das akustische Schweigemodell besser als 
die Schweigevergleichsschwelle ist und falls der fruhere 
Ton eine Dauer hat, die kiirzer als die 
Schweigedauerschwelle ist,. und falls der beste 
Vergleichswert fur den nachsten friiheren Ton und ein 
akustisches Bef ehlsmodell schlechter als die 
Erkennungsschwelle fur diesen nachsten fruheren Ton war, 
oder (b2) falls der Vergleichswert ftir den fruheren Ton 
und das akustische Schweigemodell schlechter als die 



Schweigevergleichsschwelle ist und falls der beste 
Vergleichswert fur den fruheren Ton und ein akustisches 
Bef ehlsmodell schlechter als die Erkennungsschwelle fur 
diesen fruheren Ton war. 

Spracherkennungsvorrichtung nach Anspruch 3, dadurch 
gekennzeichnet, dass das Erkennungssignal ein 
Bef ehlssignal zum Aufrufen eines dem Befehl zugeordneten 
Programms umfasst. 

Spracherkennungsvorrichtung nach Anspruch 4, dadurch 
gekennzeichnet, dass: 

das Ausgabemittel (16) eine Anzeige umfasst; und 

das Ausgabemittel (16) eines oder mehrere Worte anzeigt, 
die dem Bef ehlsmodell mit dem besten Vergleichswert fur 
einen aktuellen Ton entsprechen, falls der beste 

Vergleichswert fur den aktuellen Ton besser als der 

■ 

Erkennungsschwellenwert fttr den aktuellen Ton ist. 

Spracherkennungsvorrichtung nach Anspruch 5, dadurch 
gekennzeichnet, dass das Ausgabemittel (16) ein 

* 

Anzeigesignal fttr einen nicht erkennbaren Ton ausgibt, 
falls der beste Vergleichswert fUr den aktuellen Ton 
schlechter als der Erkennungsschwellenwert fttr den 
aktuellen Ton ist. 

Spracherkennungsvorrichtung nach Anspruch 6, dadurch 
gekennzeichnet, dass das Ausgabemittel (16) eine Anzeige 
. fttr einen nicht erkennbaren Ton anzeigt, falls der beste 
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Vergleichswert fur den aktuellen Ton schlechter als der 
Erkennungsschwellenwert fur den aktuellen Ton ist. 

Spracherkennungsvorrichtung nach Anspruch 7, dadurch 
gekennzeichnet, dass die Anzeige fur einen nicht 
erkennbaren Ton ein oder mehrere Fragezeichen umfasst. 

Spracherkennungsvorrichtung nach Anspruch 1, dadurch 
gekennzeichnet, dass der Akustikprozessor (10) ein 
Mikrofon (24) umfasst. 

* ■ 

Spracherkennungsvorrichtung nach Anspruch 1, dadurch 
gekennzeichnet, dass: 

jeder Ton einen Vokaltoh umfasst; und 

jeder Befehl raindestens ein Wort umfasst. 

Spracherkennungsverfahren, das die folgenden Schritte 
umfasst: 

Messen des Wertes von mindestens einem Merkmal von jedem 
aus einer Folge von raindestens zwei Tonen, wobei der Wert 
des Merkmals jedes Tons wahrend jeder aus einer Reihe 
auf einanderfolgender Zeitintervalle gemessen wird, um 
eine Reihe von Merkmalsignalen zu erzeugen, die die 
Merkmalwerte des Tons darstellen; 

Speichern eines Satzes akustischer Bef ehlsmodelle, wobei 
jedes akustische Bef ehlsmodell eine oder mehrere Reihen 
akustischer Merkmalswerte darstellt, die eine AuBerung 



eines dem akustischen Bef ehlsmodell zugeordneten Befehls 
darstellen; 

» » 

Erzeugen eines Vergleichswertes fur jeden Ton und jedes 
von einem oder mehreren akustischen Bef ehlsmodellen aus 
dem Satz akustischer Bef ehlsmodelle, wobei jeder 
Vergleichswert eine Schatzung der Genauigkeit einer 
Ubereinstimmung zwischen dem akustischen Bef ehlsmodell 
und einer Reihe dem Ton entsprechender Merkmalsignale 
umfasst; 

gekennzeichnet durch 

das Ausgeben eines Erkennungs signals, das dem 
Befehlsmodell mit dem besten Vergleichswert fur einen 
aktuellen Ton entspricht, falls der beste Vergleichswert 

* - 

fiir den aktuellen Ton besser als ein 

Erkennungsschwellenwert fUr den aktuellen Ton ist, wobei 
die Erkennungsschwelle fiir den aktuellen Ton Folgendes 
umfasst: (a) ein erster Vertrauenswert, falls der beste 
Vergleichswert fiir einen fruheren Ton besser als eine 
Erkennungsschwelle fiir diesen friiheren Ton war, oder (b) 
ein zweiter Vertrauenswert, der besser als der erste 
Vertrauenswert ist, falls der beste Vergleichswert fiir 
einen friiheren Ton schlechter als die Erkennungsschwelle 
fur diesen fruheren Ton war. 

Spracherkennungsverf ahren nach Anspruch 11, dadurch 
gekennzeichnet, dass der friihere Ton unmittelbar vor dem 
aktuellen Ton auftritt. 
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13, Spracherkennungsverf ahren nach Anspruch 12, das aulierdem 
die folgenden Schritte umfasst: 

Speichern von mindestens einem akustischen 
Schweigemodell, das eine Oder mehrere Reihen akustischer 
Merkmalswerte darstellt, die das Nichtvorhandensein einer 
gesprochenen Auflerung darstellen; 

Erzeugen eines Vergleichswertes fur jeden Ton und das 
akustische Schweigemodell, wobei jeder Vergleichswert 
eine Schatzung der Genauigkeit einer Ubereinstimmung 
zwischen dem akustischen Schweigemodell und einer Reihe 
von dem Ton entsprechenden Merkmalsignalen umfasst; und 
das dadurch gekennzeichnet ist, dass 

die Erkennungsschwelle ftir den aktuellen Ton den ersten 
Vertrauenswert umfasst, (al) falls der Vergleichswert ftir 
den fruheren Ton und das akustische Schweigemodell besser 
als eine Schweigevergleichsschwelle ist und falls der 
frtihere Ton eine Dauer aufweist, die eine 
Schweigedauerschwelle tibersteigt, oder (a2) falls der 
Vergleichswert fttr den fruheren Ton und das akustische 
Schweigemodell besser als die Schweigevergleichsschwelle 
ist und falls der friihere Ton eine Dauer hat, die ktirzer 
als die Schweigedauerschwelle ist und falls der beste 
Vergleichswert fur den nachsten frtiheren Ton und ein 
akustisches Bef ehlsmodell besser als eine 
Erkennungsschwelle fur diesen nachsten fruheren Ton war, 
oder (a3) falls der Vergleichswert fur den frtiheren Ton 
und das akustische Schweigemodell schlechter als die 
Schweigevergleichsschwelle ist und falls der beste 
Vergleichswert fur den fruheren Ton und ein akustisches 



Bef ehlsmodell besser als eine Erkennungsschwelle fttr 
diesen fruheren Ton war; oder dass die Erkennungsschwelle 
fur den aktuellen Ton den zweiten Vertrauenswert umfasst, 
der besser als der erste Vertrauenswert ist f (bl) falls 
der Vergleichswert fUr den fruheren Ton und das 
akustische Schweigemodell besser als. die 

Schweigevergleichsschwelle ist und falls der fruhere Ton 
eine Dauer hat, die kurzer als die Schweigedauerschwelle 
ist, und falls der beste Vergleichswert fur den nachsteh 
frviheren Tori und ein akustisches Bef ehlsmodell schlechter 
als die Erkennungsschwelle fUr diesen nachsten f rtiheren 
Ton war, oder (b2) falls der Vergleichswert fur den 
frUheren Ton und das akustische Schweigemodell schlechter 
als die Schweigevergleichsschwelle ist und falls der 
beste Vergleichswert fur den fruheren Ton und ein 
akustisches Bef ehlsmodell schlechter als die 
Erkennungsschwelle fur diesen fruheren Ton war. 

Spracherkennungsverf ahren nach Anspruch 13, dadurch 
gekennzeichnet, dass das Erkennungssignal ein 
Bef ehlssignal zum Aufrufen eines dem Befehl zugeordneten 
Prograitims umfasst. 

Spracherkennungsverf ahren nach Anspruch 14, das aulierdem 
den Schritt des Anzeigens eines oder mehrerer Worte 
umfasst, die dem Bef ehlsmodell mit dem besten 
Vergleichswert fUr einen aktuellen Ton entsprechen, falls 
der beste Vergleichswert fur den aktuellen Ton besser als 
der Erkennungsschwellenwert fur den aktuellen Ton ist. 

Spracherkennungsverf ahren nach Anspruch 15, das aulierdem 
den Sch ritt des Ausgebens eines Anzeigesign als. fur einen 



nicht erkennbaren Ton umfasst, falls der beste 
Vergleichswert fur den aktuellen Ton schlechter als der 
Erkennungsschwellenwert fur den aktuellen Ton ist. 

Spracherkennungsverf ahren nach Anspruch 16, das auflerdem 
den Schritt des Anzeigens einer Anzeige fiir einen nicht 
erkennbaren Ton umfasst, falls der beste Vergleichswert 
fur den aktuellen Ton schlechter als der 
Erkennungsschwellenwert fiir den aktuellen Ton ist. 

Spracherkennungsverf ahren nach Anspruch 17, dadurch 
gekennzeichnet, dass die Anzeige fiir einen nicht 
erkennbaren Ton eines oder - mehrere Fragezeichen umfasst. 

« 

Spracherkennungsverf ahren nach Anspruch 11, dadurch 
gekennzeichnet, dass 

jeder Ton einen Vokalton umfasst; und 
jeder Befehl mindestens ein Wort umfasst. 
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prior sound and the acoustic silence model is 
worse than the silence match threshold,- and if 
the best match score for the prior sound and an 
acoustic command model was worse than the 
recognition threshold for that prior sound. 
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